查看原文
其他

基因组学未来之星|泛基因组开启遗传育种新时代

王德芬 诺禾致源科服 2023-02-13

近年来,越来越多物种的参考基因组逐渐被测序公布,通过对同种不同个体植物基因组间的相互比较,人们逐渐认识到单一参考基因组不能涵盖该物种的所有遗传信息,不足以代表整个物种基因多样性,泛基因组的概念也由此产生。泛基因组作为参考基因组,相对传统的单一参考基因组,能呈现更加全面的种群基因组信息。随着测序技术的快速发展,测序成本随之大幅度降低,植物泛基因组也迎来了黄金发展期。仅2021年上半年就有多篇泛基因组文章发表,水稻泛基因组更是发表在 Cell 期刊上,而在去年泛基因组的身影更是频频登上 Nature、Cell、NG、NP等国内外著名期刊。说了这么多,那泛基因组到底是如何构建的呢?




目前构建泛基因组的方法主要有3种:多个体 De novo、迭代组装、图形基因组(图1)。
图1 植物泛基因组的构建方式[1]


01多个体 De novo 组装

对多个个体材料分别进行从头组装注释,然后将所得的每个个体的组装好的基因组进行互相比对来构建泛基因组,从全基因组层面查找重要的结构变异和基因位置信息。

优点该方法不基于参考基因组,可以避免基于基因组方法中由于比对所产生的误差;通过比对已组装注释完成的基因,进一步推测基因的 PAVs,可以提供更加准确的 pan-genome 信息。

缺点由于需要对每一个个体进行 de novo assembly,然后还需要全基因组比对,所以该方法需要比较大的计算资源,此外高组装质量基因组的获得,需要比较高的测序深度,增加了项目预算。

案例一

The barley pan-genome reveals the hidden legacy of mutation breeding[2]

发表期刊:Nature    发表时间:2020.11
研究人员从全球22000多份大麦材料中选取20个遗传差异显著的品种,其中包含两个中国农家品种。结合多种不同技术优势的DNA测序平台(Illumina、PacBio、10x Genomics、Hi-C),对这些品种进行测序和从头组装及注释,得到了20个高质量的染色体水平基因组。通过全基因组比较和单拷贝序列聚类,构建了大麦泛基因组。并在此基础上对不同品种间基因组大片段插入/缺失变异(PAV)进行了鉴定,共发现了1,586,262个PAV,大小在50-999,568bp,并观察到低频变异的富集。为了获得泛基因组变异程度的定量估计,该研究从20个基因组中提取单拷贝区域,聚集成一组非冗余序列,单拷贝序列的平均累计大小为478Mb(占总基因组的9.5%)。非冗余单拷贝序列的总大小为638.6Mb,由1,472,508个簇组成,N50为1,087bp。在所有20个基因组中共有的单拷贝序列达402.5 Mb,而235.9 Mb是可变的(即在至少一个基因组中缺失或以较高拷贝数存在),平均每个基因组特有的单拷贝序列为2.9Mb。
图2 大麦泛基因组中单拷贝序列的变异情况


02迭代组装(iterative assembly
选取一个参考基因组,将多个个体材料的测序数据与参考基因组比对,把未比对上的reads组装成新的contigs,然后将这些新的contigs添加到原始的参考序列中构建泛基因组。
优点这种方法在相对低的测序深度下即可实现pan-genome的研究,相对需要更少电脑资源,因此花费相对低,可以选择的个体材料也比较多。
缺点对于多拷贝基因的检测是有局限的,不能区分一个位点的极端序列差异和序列的插入或缺失。
案例二

Cotton pan-genome retrieves the lost sequences and genes during domestication and selection[3]

发表期刊:Genome Biology   发表时间:2021.4
研究采用1,581个陆地棉和226个海岛棉的测序数据分别与参考基因组比对,将未比对上的reads进行从头组装,得到32,569个陆地棉基因和8,851个海岛棉基因。将组装得到的非参考序列与参考基因组整合到一起后构建了陆地棉和海岛棉的泛基因组。陆地棉泛基因组大小为3,388 Mb,包含102,768个基因(63,489个核心基因和39,278个可变基因)。海岛棉泛基因组大小为2,575 Mb ,包含80,148 个基因( 68,789个核心基因和11,359个可变基因)。GO 分析表明,核心基因参与细胞代谢过程和发育,而可变基因则与防御反应、应激反应和环境适应性信号转导相关。此外研究还利用泛基因组数据分析了多个与纤维品质等性状相关基因在驯化和改良中的频率变化,为棉花重要性状的精准改良提供了新的思路。
图3 陆地棉和海岛棉泛基因组


03图形基因组
也叫 map-to-pan,这种方法是在 de novo 的基础上通过全基因组比对或是图形组装的方式获得图形式的泛基因组,最终构建的泛基因组涵盖基因组可变和保守部分。
优点这种方法所需的测序深度也相对较低,比较适合大规模的群体。
缺点如果所研究的物种基因组很大的话,该方法也需要耗费大量的计算机资源。相对于第一种和第二种策略,构建泛基因组图的技术和算法尚未成熟,因此目前应用还较少。
案例三

Pan-Genome of Wild and Cultivated Soybeans[4]

发表期刊:Cell      发表时间:2020.6
该研究首先对全球范围内收集到的2898份大豆种质资源进行了深度重测序和群体结构分析,从中挑选出26份最具代表性的大豆种质材料进行高通量测序,随后基于最新的组装策略分别进行了基因组从头组装及注释,得到了26个高质量的大豆基因组。并在此基础上,结合已发表的Wm82、ZH13和W05基因组,构建了大豆图形泛基因组。通过泛基因组分析,鉴定得到776,399个SV(723,862个PAVs、27,531个CNVs、21,886个易位、3,120个倒位)。发现90%以上的组装基因组长度变异是由PAV引起的,表明PAV是驱动基因组大小变异的主要因素。进一步深入分析发现,部分结构变异导致了不同基因间的融合,为新基因的产生提供了重要基础,还有一些结构变异在重要农艺性状调控中发挥重要作用,如种皮亮度、种皮颜色的驯化、缺铁失绿等。

图4 大豆图形泛基因组分析

 

随着测序技术、组装方法和计算资源的改进,越来越多物种的泛基因组相继被公布,如大豆、油菜、大麦、小麦、水稻、高粱、棉花等。而泛基因组学的发展也使得广泛的结构变异(SV)(PAV、CNV、染色体重排)被鉴定到,使我们能够在不基于SNPs的情况下更深入地了解动植物物种的多样性,为动植物基因组学研究和遗传改良驯化提供了重要基础。诺禾致源动植物基因组板块拥有专业研究团队,为不同领域科研人员提供专业全面的测序分析服务,提供商业、个性化定制和合作等多种服务方式,满足不同层次客户的科研需求。项目经验丰富,目前为止发表的动植物泛基因组高分文章(IF>25)中,有近1/3发表于Science,Nature等顶级期刊(IF>40)。

 

参考文献

[1] Bayer P E , Golicz A A , Scheben A , et al. Author Correction: Plant pan-genomes are the new reference. Nat Plants. 2020 Nov;6(11):1389.

[2] Jayakodi M , Padmarasu S , Haberer G , et al. The barley pan-genome reveals the hidden legacy of mutation breeding. Nature. 2020 Dec;588(7837):284-289.

[3] Li J, Yuan D, Wang P, et al. Cotton pan-genome retrieves the lost sequences and genes during domestication and selection. Genome Biol. 2021 Apr 23;22(1):119.

[4] Liu Y, Du H, Li P, et al. Pan-Genome of Wild and Cultivated Soybeans. Cell. 2020 Jul 9;182(1):162-176.e13.




往期精彩推荐


产品研发部  王德芬 | 文案





点击“阅读原文”进入科研微站

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存